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从 自然 场景 图 像 中 学 习 可 动画 的 三 维 人 脸 模 型 
摘 要 


虽然 目前 的 基于 单 幅 图 像 的 三 维 人 脸 重 建 方法 可 以 恢复 
精细 的 几何 细 市 ， 但 是 这 些 方法 具有 局 限 性 。 某 些 方法 生成 
的 人 脸 无 法 真实 地 设置 动画 ， 因 为 它们 没有 对 皱纹 如 何 随 表 
情 变化 进行 建 模 。 其 他 方法 是 在 高 质量 的 面部 扫描 上 训练 的 ， 
并 且 不 能 很 好 地 推广 到 自然 场景 的 图 像 。 报 告 中 使 用 的 方法 ， 
能 回归 三 维和 人 脸形 状 和 动画 的 细节 ， 这 些 细 市 是 特定 于 个 人 
的 但 能 随 着 表情 的 变化 。 该 方法 的 模型 经 过 训练 ， 可 以 从 由 
特定 于 人 的 细节 参数 和 通用 表情 参数 组 成 的 低 维 潜在 表示 中 
鲁 棒 地 生成 UV 位 移 图 ， 而 回归 量 则 经 过 训练 ， 可 以 从 单个 图 
像 中 预测 细节 ， 形 状 ， 表 情 ， 姿 势 和 照明 参数 。 为 了 实现 这 
一 点 ， 该 方法 引入 了 一 种 新 的 细节 一 致 性 损失 ， 从 依赖 于 表 
情 的 皱纹 中 分 离 出 特定 于 人 的 细 市 。 这 种 解 缠 使 得 能 够 通过 
控制 表情 参数 ， 同 时 保持 个 人 特定 细节 不 变 ， 来 合成 逼真 的 
个 人 特定 皱纹 。 该 方法 是 从 自然 场景 得 图 像 中 学 习 的 ， 没 有 
配对 的 三 维 数据 监督 。 


Learning Animable 3D Face Model from Natural 
Scene Images 


Abstract 


Although the current 3D face reconstruction methods based on a single 
image can recover fine geometric details, these methods have limitations. 
The faces generated by some methods can't be really animated because they 
don't model how wrinkles change with expressions. Other methods are 
trained on high-quality facial scanning, and cannot be well extended to 
images of natural scenes. The method used in the report can return to the 
details of three-dimensional face shapes and animations, which are specific 
to individuals but can change with expressions. The model of this method 
can be trained to generate a UV displacement map from a low-dimensional 
potential representation composed of person-specific detail parameters and 
general expression parameters, while the regression quantity can be trained 
to predict details, shapes, expressions, postures and lighting parameters 
from a single image. In order to achieve this, this method introduces a new 
loss of detail consistency, which separates people-specific details from 
wrinkles that depend on expressions. This unwrapping makes it possible to 
synthesize realistic personal specific wrinkles by controlling expression 
parameters while keeping personal specific details unchanged. This method 
is learned from images of natural scenes, and there is no paired 3D data 
supervision. 


Keywords: 3D face reconstruction, deep learning, face details. 
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第 1 章 绪论 


RE 时 


1.1 研究 背景 

人 脸 作 为 人 类 最 具 辨 识 度 的 生物 特征 , 在 日 常生 活 中 传递 了 大 量 的 
言 息 ， 包 括 身份 情绪 和 年 龄 等 ， 这 些 信息 具有 直观 性 、 唯 一 性 等 特点 。 
因此 人 脸 研究 具有 颇 多 的 价值 , 因此 成 为 了 计算 机 视觉 领域 的 热门 研究 
方向 ,与 二 维 人 脸 图 像 不 同 , 三 维 人 脸 能 够 在 空间 中 多 角度 的 展示 人 脸 ， 
因此 其 能 将 人 脸 的 形状 、 姿 态 和 纹理 等 信息 更 加 丰富 的 表现 出 来 ， 且 视 
角 转 换 以 及 角度 遮挡 等 情况 不 会 对 人 脸 在 三 维 空间 中 的 表征 产生 影响 ， 
模型 的 鲁 棒 性 大 大 提高 。 但 是 ， 由 于 人 脸 携 带 了 身份 、 性 别 、 种 群 、 年 
龄 和 情感 等 大 量 信息 , 因此 要 在 三 维 空间 中 将 这 些 蕴 含 的 人 脸 信 息 充分 、 
准确 的 表现 出 来 就 需要 重建 出 高 质量 的 三 维 人 脸 模型 。 如 何 重建 出 高 质 
量 的 三 维 人 脸 模 型 仍 是 三 维和 人 脸 重 建 技术 中 具有 挑战 性 的 问题 。 

三 维和 人 脸 重 建 相关 技术 被 广泛 应 用 于 多 个 领域 ， 主 要 包括 以 下 场 
K: 

(智慧 医疗 领域 .三 维 人 脸 重 建 技术 在 面部 整形 方面 有 着 广泛 的 应 
用 。 在 手术 前 ,医生 可 以 使 用 三 维 人 脸 重 建 软件 对 病人 的 脸 部 进行 三 维 
建 模 ， 从 而 加 深 对 病人 情况 的 认 知 。 此 外 ， 也 可 以 通过 对 重建 的 三 维 人 
脸 模型 进行 美容 、 化 妆 、 编辑 等 操作 , 将 手术 后 的 人 脸 结 果 展 示 给 患者 ， 
从 而 使 医生 和 病人 间 的 沟通 交流 更 加 方便 。 

(2) 影 视 娱 乐 领域 . 随 着 影视 观众 对 影像 视听 品质 以 及 游戏 用 户 对 多 
元 化 游戏 体验 需求 的 提升 , 过 去 的 二 维 人 脸 图 像 处 理 技术 已 经 很 难 满足 
用 户 日 益 增 长 的 需求 因此 三 维和 人 脸 重 建 技术 在 电影 、 电 视 与 游戏 领域 得 
BS) ZIMA. OAL, 已 经 有 多 部 电影 将 经 过 三 维 重建 的 人 脸 模 
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型 呈现 给 观众 ， 诸 如 国产 动漫 《大 圣 归来 》 和 《 哪 噬 之 魔 童 降 世 》 等 ， 
很 好 的 将 传统 中 国文 化 中 的 人 物 形 象 与 三 维 人 脸 重 建 技术 相 结合 , 得 到 
了 口碑 与 票房 双 丰 收 。 在 游戏 领域 三 维 人 脸 重建 技术 应 用 的 时 间 可 能 
早 ， 早 在 2004 年 就 有 了 中 国 的 第 一 款 3D 网 游 《天 之 游侠 》 并 得 到 了 
玩家 们 的 极 高 评价 , 此 后 越 来 越 多 的 游戏 公司 开始 研发 能 给 用 户 带 来 更 
好 体验 感 与 真实 感 的 三 维 游戏 , 在 开发 过 程 中 也 同时 引入 了 三 维 人 脸 重 
建 技术 如 今 一 些 游戏 不 仅 可 以 提供 对 三 维 人 脸 模 型 的 捏 脸 服务 ,甚至 可 
以 由 玩家 提供 自己 的 人 脸 照片 实现 个 性 化 的 人 脸 定制 , 增强 了 可 玩 性 以 
及 用 户 的 参与 感 。 

(3) 人 脸 识 别 领域 。 每 个 人 的 脸 部 特征 都 具有 唯一 性 ,即使 存在 长 相 
相似 的 人 但 他 们 的 脸 部 特征 也 不 会 完全 相同 , 因此 人 脸 可 以 如 同 指纹 一 
样 作为 唯一 特征 来 区 分 不 同人 的 身份 。 科研 工作 者 们 据 此 研究 出 了 许多 
人 脸 识 别 的 算法 。 随 着 深度 学 习 方 法 的 兴起 ， 人 脸 识 别 技术 在 金融 、 安 
全 检查 、 打 卡 考勤 等 多 个 领域 取得 了 广泛 的 应 用 。 然 而 ， 当 前 人 脸 识 别 
相关 技术 大 多 数 是 使 用 二 维 人 脸 图 像 来 进行 识别 , 只 有 极 少数 方法 使 用 
三 维 人 脸 技术 ， 这 就 导致 了 在 大 姿态 以 及 极端 光照 情况 下 ， 难 以 实现 有 
效 的 人 脸 识别 ， 无 法 满足 实际 应 用 需求 。 甚 至 有 人 使 用 二 维 人 脸 图 像 冒 
充 真实 三 维 人 脸 来 欺骗 人 脸 识 别 设备 。 与 二 维 人 脸 图 像 不 同 的 是 三 维 人 
脸 模型 具有 更 加 丰富 的 深度 与 纹理 信息 且 不 受 观 察 视角 的 影响 , 因此 将 
三 维 人 脸 重 建 技术 与 人 脸 识别 相 结合 将 更 好 的 提高 其 识别 准确 度 。 

由 此 可 见 ， 作 为 计算 机 视觉 最 热门 的 研究 方向 之 一 ,三维 人 脸 重 建 
技术 有 着 许多 的 实际 应 用 场景 ， 并 且 不 断 给 人 类 带 来 更 好 的 生活 体验 。 
在 当下 工业 界 为 了 获得 三 维 人 脸 模 型 仍然 采用 结构 光 相 机 以 或 三 维 激 
光 扫 描 仪 来 采集 人 脸形 状 与 纹理 信息 。 使 用 这 类 设备 采集 的 结果 进行 重 
建 得 到 的 三 维 人 脸 模型 精度 很 高 ， 形 状 也 十 分 逼真 ， 但 昂贵 的 设备 成 本 
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以 及 复杂 耗 时 的 过 程 使 得 该 方法 门槛 较 高 , 在 实际 应 用 中 受到 了 很 大 的 
限制 。 二 维 人 脸 图 像 相 较 于 三 维 人 脸 数据 获取 门槛 低 且 日 常生 活 中 使 用 
手机 、 相 机 等 设备 就 能 轻松 获得 ， 因 此 基于 单 张 二 维 人 脸 图 像 进行 三 维 
人 脸 重 建成 为 了 学 者 们 研究 的 重点 方向 ,伴随 着 深度 学 习 技术 的 迅猛 发 
展 , 三 维 人 脸 重 建 领域 也 迎 来 了 快速 发 展 ， 这 对 于 未 来 的 人 类 生活 发 展 
有 着 重大 的 研究 价值 和 实际 应 用 意义 。 


1.2 国内 外 研究 现状 

三 维 人 脸 重 建 技术 旨 在 从 二 维 人 脸 图 像 中 获得 准确 的 三 维 人 脸 数 
据 ， 并 通过 获取 的 三 维 人 脸 数 据 重 构 出 三 维 人 脸 模 型 ， 是 目前 国内 外 学 
者 和 工业 界 关 注 的 热点 。 早期, 研究 人 员 使 用 简单 的 建 模 方法 和 模板 变 
形 来 重建 出 三 维 人 脸 : 后 来 ， 在 3DMM 人 脸 可 形变 模型 被 提出 后 ， 三 维 
人 脸 重 建 技术 围绕 该 模型 进行 不 断 完 善 发 展 :现在 ， 随 着 深度 学 习 的 快 
速 发 展 , 使 用 深度 学 习 方 法 实现 端 到 端的 三 维 人 脸 重 建成 为 了 行业 主流 。 

该 报告 主要 研究 的 是 基于 深度 学 习 的 单 张 人 脸 图 像 的 三 维 人 脸 重 
建 的 方法 。 
近年 来 ， 随 着 深度 学 习 技术 的 发 展 , 计算 机 视觉 的 相关 领域 也 因此 
叶 到 了 快速 发 展 由 于 无 法 捕捉 到 图 像 的 深层 特征 导致 人 脸 模型 的 表达 
能 力 受 限 , 传统 的 三 维 人 脸 重 建 方法 已 经 难以 满足 日 益 增长 的 精细 化 三 
维 人 脸 模 型 需求 。 同 时 传统 的 三 维 人 脸 重 建 方法 中 间 过 程 较 多 ， 需 要 经 
过 繁 开 的 操作 才能 得 到 重建 的 三 维和 人 脸 模 型 。 而 深度 学 习 模型 则 可 以 根 
据 学 习 任 务 选择 损失 函数 进行 约束 ,从 而 实现 对 输入 图 像 的 自 适应 深层 
特征 提取 , 这 有 效 的 弥补 了 传统 三 维 人 脸 重建 方法 中 模型 表达 能 力 的 不 
足 。 同 时 深度 学 习 方法 中 端 到 端的 设计 也 简化 了 搭建 模型 的 中 间 过 程 ， 
弥补 了 传统 三 维 人 脸 重 建 方法 中 的 不 足 和 缺陷 。 由 于 以 上 的 优点 ， 使 用 
深度 学 习 方 法 的 三 维 人 脸 重 建 技术 成 为 了 该 领域 的 新 研究 热门 。 
基于 深度 学 习 的 三 维 人 脸 重建 方法 按 是 否 需要 三 维 人 脸 数据 可 以 
分 为 有 监督 方法 和 无 监督 方法 。 有 监督 方法 需要 对 应 的 三 维 人 脸 数据 来 
优化 训练 人 脸 重 建 网 络 。 一 些 方法 PDB] 将 卷 积 神经 网 络 (CNN) 引 入 到 
3DMM 模型 中 ,使 用 卷 积 神经 网 络 对 3DMM 模型 的 参数 进行 直接 预测 。 
DOUBI 等 人 提出 了 一 种 在 卷 积 神经 网 络 的 不 同 层 上 对 3DMM 模型 参数 
进行 预测 的 方法 ， 该 方法 结合 了 卷 积 神经 网 络 与 3DMM 模型 ， 并 在 网 
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络 的 不 同 层 上 对 表情 、 身 份 等 参数 分 别 进行 预测 。Richardson 中 等 人 提 
出 了 一 种 逐步 精细 化 的 三 维 人 脸 重 建 算法 ， 该 算法 由 CoarseNet 和 
FineNet 两 个 网 络 模块 组 成 , 先 由 CoarseNet 模块 通过 3DMM 方法 恢复 
出 粗糙 人 脸形 状 ， 再 由 FineNet 模块 对 粗 人 脸形 状 进行 不 断 地 细 化 。 
Zhu 等 人 中 提出 了 基于 级 联 卷 积 神经 网 络 的 三 维 人 脸 重 建 方法 ， 通 过 级 
联 卷 积 神经 网 络 将 3DMM 模型 与 输入 的 二 维 人 脸 图 像 拟 合 ,进行 密集 
人 脸 重 建 与 对 齐 ， 展 现 出 了 优良 的 人 脸 重 建 与 对 齐 效果 。VRNetD 将 人 
脸 看 成 是 从 耳 后 平面 到 鼻尖 平面 的 200 个 横 切 片 , 使 用 卷 积 神经 网 络 直 
接 回 归 得 到 每 个 切片 进而 重建 三 维 人 脸 模 型 , 然而 该 方法 会 带 来 人 脸 对 
齐 以 及 重建 分 辩 率 不 易 扩 展 等 问题 。PRNetl9 提 出 了 一 种 基于 UV 位 置 
映射 的 2D 表示 ， 它 能 够 在 UV 空间 中 记录 单 张 人 脸 图 像 的 3D 形状 信 
息 ， 通 过 训练 卷 积 神经 网 络 重建 出 三 维 人 脸形 状 并 与 UV 空间 的 3D 纹 
理 对齐 。 
尽管 基于 深度 学 习 的 三 维 人 脸 重建 方法 已 经 获得 了 快速 发 展 , 但 由 
于 缺少 三 维 人 脸 数据 和 相应 的 三 维 标注 信息 , 三 维 人 脸 重 建 模型 的 性 能 
受到 了 严重 的 限制 。 为 此 ， 科 研 工作 者 们 提出 了 无 监督 的 三 维 人 脸 重 建 
方法 , 从 而 缓解 了 三 维 人 脸 数据 标签 不 足 的 问题 无 监督 方法 则 是 将 生成 
的 三 维 人 脸 模 型 泻 染 到 二 维 , 通过 与 输入 图 像 的 不 断 拟 合 来 优化 人 脸 重 
EN. Pan EAN GAN 网 络 从 二 维 图 像 中 挖掘 3D 几何 线索 ， 从 
而 实现 以 无 监督 的 方式 从 单 张 二 维 人 脸 图 像 中 恢复 出 三 维 人 脸形 状 。 
Shang 色 等 人 使 用 单 张 人 脸 图 像 生 成 多 个 视角 下 的 人 脸 图 片 ， 并 利用 同 
一 人 脸 在 不 同 视角 下 的 一 致 性 约束 来 增强 三 维 人 脸 模型 的 表达 能 
Thewlisb 等 人 使 用 等 方差 来 学 习 密 集 地 标 ,， 并 使 用 学 习 到 的 地 标 信息 来 
恢复 2D 对 象 对 应 的 3D 几何 形状 。Lin9 等 人 通过 利用 三 维 网 格 和 深度 
图 像 的 致 性 ， 以 无 监督 的 方式 来 拟 合 优化 网 络 ， 可 以 实现 在 光照 不 足 的 
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情况 下 进行 三 维 人 脸 的 重建 .DEADU0 通 过 进一步 分 解 图 像 的 反照 率 和 阴 
影 , 并 约束 带 有 小 瓶颈 嵌入 的 自动 编码 器 来 预测 面部 三 维 形状 .Zhangt 
等 人 提出 了 一 种 新 颖 的 学 习 聚 合 和 个 性 化 框架 , 解决 了 无 监督 三 维 人 脸 
重建 在 大 姿态 和 更 高 分 辨 率 重 建 效 果 不 佳 的 问题 。 当 下 流行 的 方法 在 这 
些 工作 的 基础 上 有 了 较 大 的 突破 ，Wu03 基 于 无 监督 的 方法 提出 将 二 维 
人 脸 图 片 通过 对 称 性 解 看 为 视角 ， 光 照 ， 反 照 率 ,深度 等 因素 并 将 他 们 
组 合 起 来 得 到 重建 的 三 维 人 脸 模型 。 


第 2 章 本 报告 的 关键 技术 


本 报告 的 理论 和 代码 基础 来 源 于 论文 : Learning an Animatable 
Detailed 3D Face Model from In-The-Wild Images。 提 出 了 两 阶段 人 脸 重 
建 的 方法 ， 第 一 阶段 先 重 建 出 人 脸 的 粗略 形状 ， 第 二 阶段 恢复 出 人 脸 细 


He 


Te 


Training: detail capturing & modeling 


Lcoarse 


Differentiable 
Renderer 


Detail Shape 


l | 


C:cameracode a:albedocode :lightcode = B:shapecode @: posecode yrexpressioncode _ 8: detail code 


Laetait 


图 一 两 阶段 人 脸 重建 的 方法 
如 图 一 所 示 ， 在 第 一 阶段 的 粗略 重建 中 ， 先 是 将 一 张 人 脸 图 像 出 入 
到 一 个 编码 器 中 《原文 中 是 ResNet50)， 得 到 FLAME 人 脸 模型 的 形状 
系数 ， 表 情 系数 ， 纹 理 系数 ， 姿 势 ， 光 照 ， 相 机 参数 ， 反 射 率 等 参数 。 
再 利用 这 些 参数 通过 一 个 可 微分 泻 染 器 得 到 一 张 二 维 图 像 。 最 后 对 泻 染 
得 到 的 二 维 图 像 和 原始 的 输入 图 像 作 损失 并 计算 损失 函数 , 更 新 网 络 参 
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数 。 将 粗略 重建 的 到 的 形状 系数 ， 表 情 系数 ， 姿 势 系数 送 入 FLAME 解 
码 器 ， 就 能 得 到 三 维 人 脸 的 顶点 ， 也 就 是 三 维 人 脸 。 

在 粗略 重建 训练 完成 后 ， 将 其 网 络 参数 固定 ， 开 始 进行 细节 重建 。 
细节 重建 的 输入 也 是 二 维 图 像 ， 通 过 一 个 编码 器 (原文 中 是 ResNet50) 
将 输入 图 像 编码 为 128 维 的 细节 编码 , 再 将 细节 编码 与 粗略 重建 得 到 的 
表情 参数 和 下 巴 姿势 参数 结合 ， 送 入 到 解码 器 中 ， 得 到 一 张 置换 贴图 ， 
再 将 该 置换 贴图 应 用 于 粗略 重建 的 结果 ， 就 得 到 了 最 终 的 结果 。 

使 用 的 三 维 人 脸 模 型 是 FLAME， 这 是 一 个 基于 统计 学 的 三 维 人 脸 
模型 ， 具 有 5023 个 顶点 ， 能 够 使 用 形状 系数 ， 表 情 系数 ， 姿 势 参数 来 
生成 不 同 的 三 维 人 脸 。 

2. 1 损失 函数 
总 的 损失 函数 表示 为 : 


Leoarse = Limk + Leye + Lpho + Lig + Lsc + Lreg 


人 脸 关 键 点 损失 表示 为 : 
68 


Limk = ,Nki — sTI(Mj) + tll 
i=1 


计算 的 是 输入 人 脸 图 像 的 68 个 关键 点 与 生成 的 ame 人 脸 模型 的 68 个 
关键 点 投影 到 图 像 平面 后 的 对 应 点 之 间 的 距离 。 
财 眼 损失 表示 为 : 


Leye = >》 ki—k; - s1(M; - Mh 
(i,j) €E 


与 人 脸 关 键 点 损失 类 似 , PERT SEAS E AR BSE ZT) I DT AAS o 
光度 损失 : 


Loho =||Vro (I -= Trl 


I 是 原始 的 输入 图 像 ，Ir 是 泻 染 后 得 到 的 图 像 ，VI 是 对 应 输入 图 像 的 
mask， 表 示人 脸 的 可 见 区 域 。 
身份 一 致 性 损失 ; 


fOF Ur) 


DO 


f (1) 是 使 用 预 训练 的 人 脸 识别 网 络 对 原始 输入 人 脸 图 像 提 取 的 特征 ,，f 
Ch) 是 对 泻 染 后 得 到 的 图 像 提 取 的 特征 。 形 状 一 致 性 损失 : 
Lsc = Leoarselli, R(M(B ;. 0i, pi). B( æi, li, Nuv,i), ci)) 


对 于 同一 个 人 的 不 同 照片 , 其 形状 系数 应 保持 不 变 , 再 固定 形状 系数 后 ， 
其 他 系数 保持 不 变 ， 计 算 上 述 所 有 损失 值 。 

2.2 细节 重建 过 程 的 损失 函数 

总 的 损失 函数 表示 为 : 


Ldetail = LphoD + Lmrf + Lsym + Ldc + LregD 


细节 光照 度 损 失 函 数 : 
Lpho =|Vr© Q- Ti1 


与 粗略 重建 过 程 中 的 光照 度 损失 类 似 , 这 里 的 是 泻 染 图 像 应 用 置换 贴 
图 后 的 图 像 。 
隐 式 多 样 化 马尔 可 夫 随 机 场 (ID-MRF) 损失 : 

Lmrf = 2LM(cono4 2) +LM(cono3_2) 


在 VGG19 的 第 3 2 层 和 第 4 2 层 上 计算 损失 。 
软 对 称 性 损失 : 


Lsym = ||Vuv © (D — flip(D) hha 


为 了 增加 自 庶 挡 的 鲁 棒 性 , 添加 了 一 个 软 对 称 损 失 来 正则 化 不 可 见 的 面 
部 部 分 。Vuv 表示 UV 空间 中 的 面部 皮肤 掩 码 ，flip 表示 水 平 翻转 操作 ， 
D 是 由 置换 贴图 得 到 的 法 线 贴图 。 


第 3 章 实验 结果 


在 该 论文 开源 代码 的 基础 上 , 使 用 收集 到 的 人 脸 数 据 集 进行 了 重新 
训练 和 评估 训练 结果 。 

数据 集 组 成 : VggFace2，CelebA，AFLW， 再 将 这 些 数据 集 按 8: 2 
的 比例 划分 为 训练 集 和 验证 集 。 其 他 参数 均 按照 原 论文 设置 , 其 中 batch 
size 设置 为 4。 

在 Now dataset 的 测试 集 上 的 重建 结果 如 图 二 所 示 。 


图 二 重建 结果 
第 一 行为 原始 的 输入 图 像 ， 第 二 行为 预测 出 的 68 个 二 维 人 脸 关 键 
点 ; 第 三 行为 预测 出 的 68 个 三 维 人 脸 关 键 点 ， 其 中 绿色 的 点 为 可 见 点 ， 
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红色 的 点 为 不 可 见 点 ; 第 四 行为 重建 出 的 粗略 的 人 脸形 状 ; 第 五 行为 添 
加 了 置换 贴图 的 人 脸形 状 ; 第 六 行为 添加 了 纹理 贴图 的 人 脸形 状 。 可 以 
看 出 , 重建 的 效果 较 好 , 对 于 大 姿态 和 有 遮挡 的 情况 也 能 得 到 人 脸 模型 。 

在 Now dataset 的 验证 集 上 《其 官网 地 址 为 : https://now.is.tue.mpg. 
de/) 进行 定量 评估 ， 评 佑 方式 为 计算 预测 的 人 脸 顶 点 与 真实 的 人 脸 顶 
点 之 间 的 距离 ， 并 计算 所 有 距离 的 平均 值 ， 中 位 数 以 及 标准 差 。 根据 官 
网 给 出 的 代码 以 及 验证 集 ， 计 算得 到 的 重建 误差 为 : 中 位 数 : 1.18mm， 
平均 值 : 1.46mm, ， 标 准 差 : 1.25mm. Now dataset 测试 集 重 建 误 差 排 
行 版 如 图 三 所 示 。 


NoW Home Dataset Non-Metrical Evaluation Metrical Evaluation Downloads License Sign In 


Median Mean std 


5. FOCUS [Li et al. 2022] 1.04 1.30 1.10 Download (415 MB) PDF Code 


Rank Method (mm) (mm) (mm) Error files PDF Code 
1. TokenFace [Zhang et al., ICCV 2023] 0.76 0.95 0.82 
2. MICA [Zielonka et al., ECCV 2022] 0.90 1.11 0.92 Download (415 MB) | code | 
3. AlbedoGAN [Rai et al., 2023] 0.98 1.21 0.99 Download (415 MB) de 
4. Wood et al. [ECCV 2022] 1.02 1.28 1.08 Download (415 MB) 
园 


6. CCFace [Yang et al., IEEE TMM 2023] 1.08 1.35 1.14 Download (415 MB) 


入 DECA [Feng et al., SIGGRAPH 2021] .09 1.38 1.18 Download (415 MB) PDF Code 


8. Deep3DFaceRecon PyTorch [Deng et 11 1.41 1.21 PDF 


al., CVPRW 2019] 


Code 


Code 


9. PyMAF-X [Zhang et al. 2022] 13 1.42 1.20 Download (415 MB) 


10. RingNet [Sanyal et al., CVPR 2019] 21 1.53 1.31 Download (415 MB) 


Code 


图 三 重建 误差 排行 版 


第 4 章 结论 


该 论文 提出 的 方法 通过 从 自然 场景 下 的 人 脸 图 像 数 据 集中 学 习 一 
个 可 动画 的 细节 模型 来 从 单 张 图 像 中 重建 出 具有 丰富 表情 和 可 动画 细 
节 的 人 脸 模 型 。 该 方法 是 在 没有 2 维 到 3 维 监督 的 自然 场景 下 的 数据 集 
上 训练 的 。 该 方法 提出 的 细节 重建 能 够 将 特定 于 人 的 细节 和 特定 于 表情 
的 细节 解 强 ， 这 使 得 能 生成 可 动画 的 人 脸 细节 ， 能 应 用 于 动画 ， 形 状 改 
变 ， 和 皱纹 转换 等 方面 。 同 时 由 于 该 方法 的 准确 性 ， 可 靠 性 以 及 速度 ， 使 
得 该 方法 能 应 用 于 人 脸 再 现 ， 虚 拟 数字 人 的 创造 等 方面 。 

该 论文 提出 的 人 脸 重 建 方法 对 于 遮挡 以 及 大 范围 的 表情 具有 良好 
鲁 棒 性 ， 但 是 在 大 姿态 的 情况 下 可 能 会 失败 。 此 外 ， 该 方法 能 从 单 张 人 
脸 图 像 中 恢复 出 特定 于 人 的 人 脸 细节 , 同时 这 些 细节 能 随 着 表情 的 变化 
而 变化 。 同 时 ， 该 方法 完全 开源 ， 对 于 三 维 人 脸 重 建 的 研究 工作 具有 重 
大 指导 作用 。 
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